HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

自己教師学習による音声表現学習モデルの最新版 HuBERT、控え目に言ってヤバいのでは・・。

・面倒なVQ-VAEではなくk-meansで学習した離散コードを予測するだけ

・音声「だけ」から言語生成も可能 (dGSLM)

・音声処理ベンチマークSUPERBで首位を総ナメ

音声では「とりあえず HuBERT」が主流になる予感 pic.twitter.com/pKuk5DZHW8

— ステート・オブ・AI ガイド (@stateofai_ja) September 14, 2021

論文

— ステート・オブ・AI ガイド (@stateofai_ja) September 14, 2021

「HuBERT のここがスゴい」もう一個あった

音声をたった 365 bps で超高圧縮できるコーデックとして利用可能、ほとんど劣化なし。

— ステート・オブ・AI ガイド (@stateofai_ja) September 15, 2021

Submitted on 14 Jun 2021